A Universal Music Translation Network

#survey #Music_Generation #music_style_transfer #ICLR #2019

ShuKumata.icon

Author: Noam Mor, Lior Wolf, Adam Polyak, Yaniv Taigman

Research institute: Facebook AI Research

The problem the authors try to solve:

Link to This Paper: https://arxiv.org/abs/1805.07848

1枚まとめ

https://gyazo.com/a51a486b4d75ee2f283d9867106bf349

https://docs.google.com/presentation/d/1O9uVy-FvmPxH5zvXNZYLmHcUtmMvJiVsAbNqzQn93GE/edit?usp=sharing

1. どんなもの？問題意識は？

音楽のジャンル(ピアノソロ、交響曲、口笛etc)を別のジャンルに変換するモデルを提案

ジャンル情報のない潜在表現を獲得し、各ジャンルに対応したdecoderを通すことで変換する。Audio2Audio。

Neural Audio Synthesis of Musical Notes with WaveNet AutoencodersのAutoEncoderの構造をベースにしたモデル

https://www.youtube.com/watch?v=vdxCqNWTpUs

2. 先行研究と比べてどこがすごい？

Audio2Audioで音楽のスタイル変換に取り組んだ先行研究がない？

3. 技術や手法のキモはどこ？

AutoEncoderの構造自体は、Neural Audio Synthesis of Musical Notes with WaveNet Autoencodersのものを用いた。

教師無しでドメイン変換を行う

教師有りで行う場合には、複数ジャンルの同じ音楽をデータセットとして用意する必要が出てくる

Domain Confusion Network

ドメイン依存の情報をエンコードしないようにするために、エンコード後の潜在ベクトルから入力がどのドメインの音楽かを予測する分類器を混乱させるように学習する。(AutoEncoderは再構成誤差の最小化かつその分類器の分類誤差を最大化するように学習させ、分類器は分類誤差を最小化するように学習させる。)

Audio Input Augmentation

入力の音楽の一部のピッチをランダムに変えてから、AutoEncoderを学習させた。

Decoderはピッチを変えた部分も修正するように学習する必要が出てくる。

そのまま入力を記憶してしまうことを防ぐ役割。

Domain Confusion NetworkとAudio Input Augmentationなしでは、うまく学習できなかった。

4. どうやって有効だと検証した？

本モデルで変換した音楽(?->piano)とプロの音楽家3人が変換した音楽とを比較してもらい、Audioの質とうまく変換できているかをMOS scoreで比較

プロの音楽家が変換した音楽の方が圧倒的に良いという結果に

NCC(normalized cross correlation)の値ではモデルの方が良く、DTW(Dynamic Time Warping)の値では、ほとんど同じであった。(入力と出力のpitchを比較する指標？)

モデルが入力のタイミングを保存していることが言えるのではないか。

5. 議論はある？

音楽の記譜や自動作曲に応用できる可能性がある。(5. Discussionより)

複数Decoderではなく、一つのDecoderでできないのか。

本文ではうまくいかなかったと記述がある(2. Previous Workの3段落目より)

元々のNeural Audio Synthesis of Musical Notes with WaveNet AutoencodersのAutoEncoderが一音だけを再構成するものだったので、時間軸に長い音楽を再構成するには十分でないのではないか。

6. 次に読むべき論文は？

Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders

本論文のモデルのベースとなったAutoEncoderを提案している

StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation

一つのencoder-decoderで複数のドメインで画像変換を行なっている

Coupled generative adversarial networks

CoGAN

Domain-adversarial training of neural networks

Domain Confusion Loss

リンク

https://github.com/arXivTimes/arXivTimes/issues/761

http://createwith.ai/paper/20180813/1317

https://github.com/facebookresearch/music-translation

facebook researchの実装